106 research outputs found

    Evaluation of Load Scheduling Strategies for Real-Time Data Warehouse Environments

    Get PDF
    The demand for so-called living or real-time data warehouses is increasing in many application areas, including manufacturing, event monitoring and telecommunications. In fields like these, users normally expect short response times for their queries and high freshness for the requested data. However, it is truly challenging to meet both requirements at the same time because of the continuous flow of write-only updates and read-only queries as well as the latency caused by arbitrarily complex ETL processes. To optimize the update flow in terms of data freshness maximization and load minimization, we propose two algorithms - local and global scheduling - that operate on the basis of different system information. We want to discuss the benefits and drawbacks of both approaches in detail and derive recommendations regarding the optimal scheduling strategy for any given system setup and workload

    POIESIS: A tool for quality-aware ETL process redesign

    Get PDF
    We present a tool, called POIESIS, for automatic ETL process enhancement. ETL processes are essential data-centric activities in modern business intelligence environments and they need to be examined through a viewpoint that concerns their quality characteristics (e.g., data quality, performance, manageability) in the era of Big Data. POIESIS responds to this need by providing a user-centered environment for quality-aware analysis and redesign of ETL flows. It generates thousands of alternative flows by adding flow patterns to the initial flow, in varying positions and combinations, thus creating alternative design options in a multidimensional space of different quality attributes. Through the demonstration of POIESIS we introduce the tool's capabilities and highlight its efficiency, usability and modifiability, thanks to its polymorphic design. © 2015, Copyright is with the authors.Peer ReviewedPostprint (published version

    A machine learning approach for layout inference in spreadsheets

    Get PDF
    Spreadsheet applications are one of the most used tools for content generation and presentation in industry and the Web. In spite of this success, there does not exist a comprehensive approach to automatically extract and reuse the richness of data maintained in this format. The biggest obstacle is the lack of awareness about the structure of the data in spreadsheets, which otherwise could provide the means to automatically understand and extract knowledge from these files. In this paper, we propose a classification approach to discover the layout of tables in spreadsheets. Therefore, we focus on the cell level, considering a wide range of features not covered before by related work. We evaluated the performance of our classifiers on a large dataset covering three different corpora from various domains. Finally, our work includes a novel technique for detecting and repairing incorrectly classified cells in a post-processing step. The experimental results show that our approach deliver s very high accuracy bringing us a crucial step closer towards automatic table extraction.Peer ReviewedPostprint (published version

    Superharte Werkstoffe auf Basis von Borsuboxid (B6O)

    Get PDF
    Mit einer EinkristallhĂ€rte von 45 GPa stellt Borsuboxid (B6O) einen aussichtsreichen Kandidaten fĂŒr die Entwicklung neuartiger, superharter und verschleißbestĂ€ndiger Strukturwerkstoffe dar, dessen Verwendungspotential derzeitig sowohl aufgrund eines schwieriges Verdichtungsverhaltens als auch der geringen BruchzĂ€higkeit polykristalliner B6O-Werkstoffe limitiert ist. Motiviert durch einen möglichen Einsatz von B6O als kosteneffektive Alternative zu aktuell etablierten, hochdrucksynthetisierten Werkstoffen auf Basis von Diamant und kubischem Bornitrid (c-BN), widmet sich die vorliegende Arbeit diesen Defiziten und untersucht auf Grundlage eines unter Normaldruckbedingungen synthetisierten B6O-Pulvers die Herstellung und Eigenschaften keramischer B6O-Werkstoffe mit flĂŒssigphasenbildenden Al2O3/Y2O3-Sinteradditiven (Gesamtadditivgehalt: 2 – 15 Vol.-%; Al2O3/(Al2O3+Y2O3): 0,05 – 1) unter Anwendung verschiedener Verdichtungstechnologien (Feldaktivierte Sintertechnologie/Spark Plasma Sintern, FAST/SPS; heißisostatisches Pressen, HIP; kubische Vielstempel-Hochdruckpresse, KVP). ZusĂ€tzlich wurde eine nicht-reaktive und eine reaktive PrĂ€parationsroutine fĂŒr die Herstellung von B6O/TiB2-Kompositen mit variablen TiB2-Gehalten von 6 – 57 Vol.-% evaluiert. Den Schwerpunkt bildeten dabei die Charakterisierung ausgewĂ€hlter mechanischer und thermischer Eigenschaften, wie sie fĂŒr den Einsatz in Schneid- und Verschleißprozessen relevant sind und deren Korrelation mit der Phasen- und GefĂŒgeausbildung als Grundlage fĂŒr eine weiterfĂŒhrende Optimierung der Werkstoffeigenschaften. Es konnte gezeigt werden, dass sowohl oxidische Sinteradditive (bevorzugter Gesamtadditivgehalt ≀ 3 Vol.-%) als auch die PrĂ€paration von B6O/TiB2-Kompositen (bevorzugt: reaktive Herstellungsroutine) vielversprechende AnsĂ€tze fĂŒr die reproduzierbare Herstellung vollstĂ€ndig verdichteter B6O-Werkstoffe mit einer gesteigerten BruchzĂ€higkeit von 3 – 4 MPa√m (SEVNB) bei gleichzeitig hohen HĂ€rten bis 36 GPa (HV0,4) bzw. 28 GPa (HV5), einer Festigkeit bis 540 MPa und einem E-Modul von 400 – 500 GPa darstellen. Die HochtemperaturhĂ€rte (HV5) der Werkstoffe ĂŒbersteigt ab 600 °C teilweise die WarmhĂ€rte eines ebenfalls untersuchten, kommerziellen c-BN-Referenzmaterials. WĂ€rmeleitfĂ€higkeiten bis 20 W/mK (Raumtemperatur) bzw. 17 W/mK (1000 °C) und thermische Ausdehnungskoeffizienten bis 1000 °C von 5,76 – 6,54×10 6/K wurden ermittelt. Der anhand eines Reibradtests untersuchte Verschleißwiderstand erreicht das Niveau von kommerziellem Borcarbid (B4C). Damit weisen B6O-Werkstoffe insgesamt ein vergleichbares Eigenschaftsprofil zu (isostrukturellen) B4C-Werkstoffen auf, ordnen sich jedoch meist deutlich unterhalb der LeistungsfĂ€higkeit kommerzieller c-BN-Materialien ein. Die GegenĂŒberstellung verschiedener Sintertechnologien unter BerĂŒcksichtigung der Reproduzierbarkeit des Verdichtungsprozesses, der HomogenitĂ€t der resultierenden GefĂŒge, der physikalischen Eigenschaften als auch der Wirtschaftlichkeit privilegiert insbesondere die Verdichtung mittels HIP und FAST/SPS (fĂŒr B6O mit oxidischen Sinteradditiven nur fĂŒr geringe Additivgehalte) als vielversprechendste Verfahren fĂŒr eine mögliche Kommerzialisierung von B6O. Eine abschließende Bewertung des Anwendungspotentials von B6O-Werkstoffen erfordert weiterfĂŒhrende Untersuchungen zu den Mechanismen, die zur Erniedrigung der HĂ€rte von polykristallinem B6O-Werkstoffen gegenĂŒber B6O-Einkristallen sowie dem sprunghaften Anstieg der BruchzĂ€higkeit mit geringen Additivgehalten und das Erreichen eines Plateauwertes fĂŒhren. Hierbei zeichnen sich eine verĂ€nderte B6O-Struktur (Kristallchemie/Defekte) und/oder die Beschaffenheit der Korngrenzen als wahrscheinlichste Ursachen ab, deren Rolle auf Grundlage der zur VerfĂŒgung stehenden Methodik im Rahmen dieser Arbeit nicht vollstĂ€ndig aufgeklĂ€rt werden konnte

    QualitÀtsgetriebene Datenproduktionssteuerung in Echtzeit-Data-Warehouse-Systemen

    Get PDF
    Wurden frĂŒher Data-Warehouse-Systeme meist nur zur Datenanalyse fĂŒr die EntscheidungsunterstĂŒtzung des Managements eingesetzt, haben sie sich nunmehr zur zentralen Plattform fĂŒr die integrierte Informationsversorgung eines Unternehmens entwickelt. Dies schließt vor allem auch die Einbindung des Data-Warehouses in operative Prozesse mit ein, fĂŒr die zum einen sehr aktuelle Daten benötigt werden und zum anderen eine schnelle Anfrageverarbeitung gefordert wird. Daneben existieren jedoch weiterhin klassische Data-Warehouse-Anwendungen, welche hochqualitative und verfeinerte Daten benötigen. Die Anwender eines Data-Warehouse-Systems haben somit verschiedene und zum Teil konfligierende Anforderungen bezĂŒglich der DatenaktualitĂ€t, der Anfragelatenz und der DatenstabilitĂ€t. In der vorliegenden Dissertation wurden Methoden und Techniken entwickelt, die diesen Konflikt adressieren und lösen. Die umfassende Zielstellung bestand darin, eine Echtzeit-Data-Warehouse-Architektur zu entwickeln, welche die Informationsversorgung in seiner ganzen Breite -- von historischen bis hin zu aktuellen Daten -- abdecken kann. ZunĂ€chst wurde ein Verfahren zur Ablaufplanung kontinuierlicher Aktualisierungsströme erarbeitet. Dieses berĂŒcksichtigt die widerstreitenden Anforderungen der Nutzer des Data-Warehouse-Systems und erzeugt bewiesenermaßen optimale AblaufplĂ€ne. Im nĂ€chsten Schritt wurde die Ablaufplanung im Kontext mehrstufiger Datenproduktionsprozesse untersucht. Gegenstand der Analyse war insbesondere, unter welchen Bedingungen eine Ablaufplanung in Datenproduktionsprozessen gewinnbringend anwendbar ist. Zur UnterstĂŒtzung der Analyse komplexer Data-Warehouse-Prozesse wurde eine Visualisierung der Entwicklung der DatenzustĂ€nde, ĂŒber die Produktionsprozesse hinweg, vorgeschlagen. Mit dieser steht ein Werkzeug zur VerfĂŒgung, mit dem explorativ Datenproduktionsprozesse auf ihr Optimierungspotenzial hin untersucht werden können. Das den operativen DatenĂ€nderungen unterworfene Echtzeit-Data-Warehouse-System fĂŒhrt in der Berichtsproduktion zu Inkonsistenzen. Daher wurde eine entkoppelte und fĂŒr die Anwendung der Berichtsproduktion optimierte Datenschicht erarbeitet. Es wurde weiterhin ein Aggregationskonzept zur Beschleunigung der Anfrageverarbeitung entwickelt. Die VollstĂ€ndigkeit der Berichtsanfragen wird durch spezielle Anfragetechniken garantiert. Es wurden zwei Data-Warehouse-Fallstudien großer Unternehmen vorgestellt sowie deren spezifische Herausforderungen analysiert. Die in dieser Dissertation entwickelten Konzepte wurden auf ihren Nutzen und ihre Anwendbarkeit in den Praxisszenarien hin ĂŒberprĂŒft.:1 Einleitung 1 2 Fallstudien 7 2.1 Fallstudie A: UBS AG . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1 Unternehmen und AnwendungsdomĂ€ne . . . . . . . . . . . . 8 2.1.2 Systemarchitektur . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1.3 Besonderheiten und Herausforderungen . . . . . . . . . . . . 13 2.2 Fallstudie B: GfK Retail and Technology . . . . . . . . . . . . . . . . 15 2.2.1 Unternehmen und AnwendungsdomĂ€ne . . . . . . . . . . . . 15 2.2.2 Systemarchitektur . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.3 Besonderheiten und Herausforderungen . . . . . . . . . . . . 20 3 Evolution der Data-Warehouse- Systeme und Anforderungsanalyse 23 3.1 Der Data-Warehouse-Begriff und Referenzarchitektur . . . . . . . . . 23 3.1.1 Definition des klassischen Data-Warehouse-Begriffs . . . . . . 23 3.1.2 Referenzarchitektur . . . . . . . . . . . . . . . . . . . . . . . 24 3.2 Situative Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.2.1 Interaktion zwischen IT und Fachbereich . . . . . . . . . . . 31 3.2.2 Spreadmart-Lösungen . . . . . . . . . . . . . . . . . . . . . . 33 3.2.3 Analytische Mashups und dienstorientierte Architekturen . . 35 3.2.4 Werkzeuge und Methoden im Kostenvergleich . . . . . . . . . 40 3.3 Evolution der Data-Warehouse-Systeme . . . . . . . . . . . . . . . . 40 3.3.1 Nutzung von Data-Warehouse-Systemen . . . . . . . . . . . . 41 3.3.2 Entwicklungsprozess der Hardware- und DBMS-Architekturen 46 3.4 Architektur eines Echtzeit-Data-Warehouse . . . . . . . . . . . . . . 50 3.4.1 Der Echtzeit-Begriff im Data-Warehouse-Umfeld . . . . . . . 50 3.4.2 Architektur eines Echtzeit-Data-Warehouses . . . . . . . . . . 51 3.4.3 Systemmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.5 Anforderungen an ein Echtzeit-Data-Warehouse . . . . . . . . . . . . 55 3.5.1 Maximierung der DatenaktualitĂ€t . . . . . . . . . . . . . . . 55 3.5.2 Minimierung der Anfragelatenz . . . . . . . . . . . . . . . . . 56 3.5.3 Erhalt der DatenstabilitĂ€t . . . . . . . . . . . . . . . . . . . . 57 4 Datenproduktionssteuerung in einstufigen Systemen 59 4.1 QualitĂ€tskriterien und Systemmodell . . . . . . . . . . . . . . . . . . 59 4.1.1 DienstqualitĂ€tskriterien . . . . . . . . . . . . . . . . . . . . . 60 4.1.2 DatenqualitĂ€tskriterien . . . . . . . . . . . . . . . . . . . . . 63 4.1.3 Multikriterielle Optimierung . . . . . . . . . . . . . . . . . . 64 4.1.4 Workload- und Systemmodell . . . . . . . . . . . . . . . . . . 66 4.2 Multikriterielle Ablaufplanung . . . . . . . . . . . . . . . . . . . . . 68 4.2.1 Pareto-effiziente AblaufplĂ€ne . . . . . . . . . . . . . . . . . . 68 4.2.2 Abbildung auf das Rucksackproblem . . . . . . . . . . . . . . 71 4.2.3 Lösung mittels dynamischer Programmierung . . . . . . . . . 74 4.3 Dynamische Ablaufplanung zur Laufzeit . . . . . . . . . . . . . . . . 78 4.4 Selektionsbasierte Ausnahmebehandlung . . . . . . . . . . . . . . . . 81 4.5 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.5.1 Experimentierumgebung . . . . . . . . . . . . . . . . . . . . . 84 4.5.2 Leistungsvergleich und AdaptivitĂ€t . . . . . . . . . . . . . . . 86 4.5.3 Laufzeit- und SpeicherkomplexitĂ€t . . . . . . . . . . . . . . . 87 4.5.4 ÄnderungsstabilitĂ€t . . . . . . . . . . . . . . . . . . . . . . . 89 4.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5 Bewertung von Ladestrategien in mehrstufigen Datenproduktionsprozessen 5.1 Ablaufplanung in mehrstufigen Datenproduktionsprozessen . . . . . 96 5.1.1 Ladestrategien und Problemstellung . . . . . . . . . . . . . . 97 5.1.2 Evaluierung und Diskussion . . . . . . . . . . . . . . . . . . . 98 5.2 Visualisierung der DatenqualitĂ€t in mehrstufigen Datenproduktionsprozessen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 5.2.1 Erfassung und Speicherung . . . . . . . . . . . . . . . . . . . 110 5.2.2 Visualisierung der DatenqualitĂ€t . . . . . . . . . . . . . . . . 111 5.2.3 Prototypische Umsetzung . . . . . . . . . . . . . . . . . . . . 114 5.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6 Konsistente Datenanalyse in operativen Datenproduktionsprozessen 119 6.1 Der Reporting-Layer als Basis einer stabilen Berichtsproduktion . . 120 6.1.1 StabilitĂ€t durch Entkopplung . . . . . . . . . . . . . . . . . . 120 6.1.2 Vorberechnung von Basisaggregaten . . . . . . . . . . . . . . 121 6.1.3 VollstĂ€ndigkeitsbestimmung und Nullwertsemantik . . . . . . 125 6.1.4 Datenhaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 6.1.5 Prozess der Anfrageverarbeitung mit VollstĂ€ndigkeitsbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 6.1.6 Verwandte Arbeiten und Techniken . . . . . . . . . . . . . . . 127 6.1.7 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.2 Nullwertkomprimierung . . . . . . . . . . . . . . . . . . . . . . . . . 133 6.2.1 Einleitendes Beispiel und Vorbetrachtungen . . . . . . . . . . 134 6.2.2 Nullwertkomprimierung . . . . . . . . . . . . . . . . . . . . . 136 6.2.3 Anfrageverarbeitung auf nullwertkomprimierten Daten . . . . 143 6.2.4 Verwandte Arbeiten und Techniken . . . . . . . . . . . . . . . 146 6.2.5 Evaluierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 6.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 7 Zusammenfassung und Ausblick 157 Literaturverzeichnis 161 Online-Quellenverzeichnis 169 Abbildungsverzeichnis 17

    A Domain-Specific Language for Do-It-Yourself Analytical Mashups

    Get PDF
    The increasing amount and variety of data available in the web leads to new possibilities in end-user focused data analysis. While the classic data base technologies for data integration and analysis (ETL and BI) are too complex for the needs of end users, newer technologies like web mashups are not optimal for data analysis. To make productive use of the data available on the web, end users need easy ways to find, join and visualize it. We propose a domain specific language (DSL) for querying a repository of heterogeneous web data. In contrast to query languages such as SQL, this DSL describes the visualization of the queried data in addition to the selection, filtering and aggregation of the data. The resulting data mashup can be made interactive by leaving parts of the query variable. We also describe an abstraction layer above this DSL that uses a recommendation-driven natural language interface to reduce the difficulty of creating queries in this DSL

    Multi-objective scheduling for real-time data warehouses

    Get PDF
    The issue of write-read contention is one of the most prevalent problems when deploying real-time data warehouses. With increasing load, updates are increasingly delayed and previously fast queries tend to be slowed down considerably. However, depending on the user requirements, we can improve the response time or the data quality by scheduling the queries and updates appropriately. If both criteria are to be considered simultaneously, we are faced with a so-called multi-objective optimization problem. We transformed this problem into a knapsack problem with additional inequalities and solved it efficiently. Based on our solution, we developed a scheduling approach that provides the optimal schedule with regard to the user requirements at any given point in time. We evaluated our scheduling in an extensive experimental study, where we compared our approach with the respective optimal schedule policies of each single optimization objective

    Modeling Customers and Products with Word Embeddings from Receipt Data

    Get PDF
    For many tasks in market research it is important to model customers and products as comparable instances. Usually, the integration of customers and products into one model is not trivial. In this paper, we will detail an approach for a combined vector space of customers and products based on word embeddings learned from receipt data. To highlight the strengths of this approach we propose four different applications: recommender systems, customer and product segmentation and purchase prediction. Experimental results on a real-world dataset with 200M order receipts for 2M customers show that our word embedding approach is promising and helps to improve the quality in these applications scenarios
    • 

    corecore